Il presente documento è scritto in R Markdown. Markdown è una semplice sintassi di formattazione per la creazione di documenti HTML, PDF e MS Word. Questo documento è stato compilato usando Rstudio, il più diffuso IDE per R. Per maggiori dettagli sull’utilizzo di R Markdown, vedere http://rmarkdown.rstudio.com.
I dataset utilizzati provengono dalle banche dati Inps ed Istat, (open data e dataset)
Per la scelta dei dati ho preso spunto da un report trovato sul vostro sito e dalla conoscenzad del settore. Il campione di beneficiari coinvolto nel progetto presentato è particolare e sarebbe più corretto fare un confronto con una popolazione simile
I dati utilizzati non sono collegati al vostro studio ma hanno solo lo scopo di illustrare alcune possibilità di descrizione, analisi e visualizzazione dei dati tarmite R ed RStudio. Si tratta di dataset che presentano dati aggregati quindi non adatti per molti tipi di analisi. Il primo dataset preso in esame proviene dall’inps e contiene i dati sui Lavoratori in Italia per Territorio (Provincia e regione), classe di età, sesso posizione lavorativa e cittadinanza
La prima tabella è una descrizione ed un sommario del tipo di dati presenti nel dataset
| Name | ID_5651 |
| Number of rows | 215339 |
| Number of columns | 10 |
| _______________________ | |
| Column type frequency: | |
| character | 6 |
| numeric | 4 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| Regione | 0 | 1 | 5 | 28 | 0 | 21 | 0 |
| Provincia | 0 | 1 | 4 | 35 | 0 | 104 | 0 |
| Cittadinanza | 0 | 1 | 10 | 15 | 0 | 2 | 0 |
| Classe età | 0 | 1 | 7 | 11 | 0 | 11 | 0 |
| sesso | 0 | 1 | 6 | 7 | 0 | 2 | 0 |
| Posizione Prevalente | 0 | 1 | 9 | 26 | 0 | 9 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| Anno | 0 | 1 | 2016.49 | 1.70 | 2014 | 2015.0 | 2016 | 2018 | 2019 | ▇▅▅▃▃ |
| Lavoratori | 0 | 1 | 701.36 | 3044.94 | 1 | 12.0 | 85 | 393 | 114124 | ▇▁▁▁▁ |
| rr_cumulo_Sum | 0 | 1 | 15579198.86 | 93153397.03 | 0 | 77649.5 | 704278 | 5272842 | 5573101806 | ▇▁▁▁▁ |
| ss_cum_total_Sum | 0 | 1 | 29955.75 | 136415.71 | 1 | 332.0 | 2638 | 15118 | 5517162 | ▇▁▁▁▁ |
## Questi i valori unici per Posizione lavorativa
## [1] "Artigiano" "Autonomo agricolo"
## [3] "Commerciante" "Dipendente privato"
## [5] "Domestico" "Operaio agricolo"
## [7] "Parasubordinato" "Voucher/Lavoro occasionale"
## [9] "Dipendente pubblico"
nel dataset sono riportati i dati aggregati per territorio una modalità di visualizzazione può essere usata una treemap
Il primo grafico mostra attraverso la mappa d’italia divisa per provincie la percentuale di lavoratori stranieri sul totale dei lavoratori per gli anni dal 2014 al 2019 questo tipo di visualizzazione rende immediatamente evidente la variazione del dato negli anni
###new dataset
## Tipo dato TIPO_DATO_FOL Classe di età ETA1 Sesso
## 1: tasso di occupazione EMP_R 15-64 anni Y15-64 maschi
## 2: tasso di occupazione EMP_R 15-64 anni Y15-64 maschi
## 3: tasso di occupazione EMP_R 15-64 anni Y15-64 maschi
## 4: tasso di occupazione EMP_R 15-64 anni Y15-64 maschi
## 5: tasso di occupazione EMP_R 15-64 anni Y15-64 femmine
## 6: tasso di occupazione EMP_R 15-64 anni Y15-64 femmine
## 7: tasso di occupazione EMP_R 15-64 anni Y15-64 femmine
## 8: tasso di occupazione EMP_R 15-64 anni Y15-64 femmine
## 9: tasso di attività ACT_R 15-64 anni Y15-64 maschi
## 10: tasso di attività ACT_R 15-64 anni Y15-64 maschi
## 11: tasso di attività ACT_R 15-64 anni Y15-64 maschi
## 12: tasso di attività ACT_R 15-64 anni Y15-64 maschi
## 13: tasso di attività ACT_R 15-64 anni Y15-64 femmine
## 14: tasso di attività ACT_R 15-64 anni Y15-64 femmine
## 15: tasso di attività ACT_R 15-64 anni Y15-64 femmine
## 16: tasso di attività ACT_R 15-64 anni Y15-64 femmine
## 17: tasso di disoccupazione UNEM_R 15 anni e più Y_GE15 maschi
## 18: tasso di disoccupazione UNEM_R 15 anni e più Y_GE15 maschi
## 19: tasso di disoccupazione UNEM_R 15 anni e più Y_GE15 maschi
## 20: tasso di disoccupazione UNEM_R 15 anni e più Y_GE15 maschi
## 21: tasso di disoccupazione UNEM_R 15 anni e più Y_GE15 femmine
## 22: tasso di disoccupazione UNEM_R 15 anni e più Y_GE15 femmine
## 23: tasso di disoccupazione UNEM_R 15 anni e più Y_GE15 femmine
## 24: tasso di disoccupazione UNEM_R 15 anni e più Y_GE15 femmine
## 25: tasso di disoccupazione UNEM_R 15-74 anni Y15-74 maschi
## 26: tasso di disoccupazione UNEM_R 15-74 anni Y15-74 maschi
## 27: tasso di disoccupazione UNEM_R 15-74 anni Y15-74 maschi
## 28: tasso di disoccupazione UNEM_R 15-74 anni Y15-74 maschi
## 29: tasso di disoccupazione UNEM_R 15-74 anni Y15-74 femmine
## 30: tasso di disoccupazione UNEM_R 15-74 anni Y15-74 femmine
## 31: tasso di disoccupazione UNEM_R 15-74 anni Y15-74 femmine
## 32: tasso di disoccupazione UNEM_R 15-74 anni Y15-74 femmine
## 33: tasso di inattività INAC_R 15-64 anni Y15-64 maschi
## 34: tasso di inattività INAC_R 15-64 anni Y15-64 maschi
## 35: tasso di inattività INAC_R 15-64 anni Y15-64 maschi
## 36: tasso di inattività INAC_R 15-64 anni Y15-64 maschi
## 37: tasso di inattività INAC_R 15-64 anni Y15-64 femmine
## 38: tasso di inattività INAC_R 15-64 anni Y15-64 femmine
## 39: tasso di inattività INAC_R 15-64 anni Y15-64 femmine
## 40: tasso di inattività INAC_R 15-64 anni Y15-64 femmine
## Tipo dato TIPO_DATO_FOL Classe di età ETA1 Sesso
## SEXISTAT1 TITOLO_STUDIO
## 1: 1 3
## 2: 1 4
## 3: 1 7
## 4: 1 11
## 5: 2 3
## 6: 2 4
## 7: 2 7
## 8: 2 11
## 9: 1 3
## 10: 1 4
## 11: 1 7
## 12: 1 11
## 13: 2 3
## 14: 2 4
## 15: 2 7
## 16: 2 11
## 17: 1 3
## 18: 1 4
## 19: 1 7
## 20: 1 11
## 21: 2 3
## 22: 2 4
## 23: 2 7
## 24: 2 11
## 25: 1 3
## 26: 1 4
## 27: 1 7
## 28: 1 11
## 29: 2 3
## 30: 2 4
## 31: 2 7
## 32: 2 11
## 33: 1 3
## 34: 1 4
## 35: 1 7
## 36: 1 11
## 37: 2 3
## 38: 2 4
## 39: 2 7
## 40: 2 11
## SEXISTAT1 TITOLO_STUDIO
## Titolo di studio N
## 1: licenza di scuola elementare, nessun titolo di studio 100
## 2: licenza di scuola media 100
## 3: diploma 100
## 4: laurea e post-laurea 100
## 5: licenza di scuola elementare, nessun titolo di studio 100
## 6: licenza di scuola media 100
## 7: diploma 100
## 8: laurea e post-laurea 100
## 9: licenza di scuola elementare, nessun titolo di studio 100
## 10: licenza di scuola media 100
## 11: diploma 100
## 12: laurea e post-laurea 100
## 13: licenza di scuola elementare, nessun titolo di studio 100
## 14: licenza di scuola media 100
## 15: diploma 100
## 16: laurea e post-laurea 100
## 17: licenza di scuola elementare, nessun titolo di studio 50
## 18: licenza di scuola media 50
## 19: diploma 50
## 20: laurea e post-laurea 50
## 21: licenza di scuola elementare, nessun titolo di studio 50
## 22: licenza di scuola media 50
## 23: diploma 50
## 24: laurea e post-laurea 50
## 25: licenza di scuola elementare, nessun titolo di studio 50
## 26: licenza di scuola media 50
## 27: diploma 50
## 28: laurea e post-laurea 50
## 29: licenza di scuola elementare, nessun titolo di studio 50
## 30: licenza di scuola media 50
## 31: diploma 50
## 32: laurea e post-laurea 50
## 33: licenza di scuola elementare, nessun titolo di studio 100
## 34: licenza di scuola media 100
## 35: diploma 100
## 36: laurea e post-laurea 100
## 37: licenza di scuola elementare, nessun titolo di studio 100
## 38: licenza di scuola media 100
## 39: diploma 100
## 40: laurea e post-laurea 100
## Titolo di studio N
| Name | TassiTitSt_cast1 |
| Number of rows | 1600 |
| Number of columns | 18 |
| Key | ITTER107, Territorio, SEXISTAT1, Sesso, ETA1, Classe di età, TITOLO_STUDIO, Titolo di studio, CITTADINANZA, Cittadinanza, TIME, Seleziona periodo, Flag Codes, Flags |
| _______________________ | |
| Column type frequency: | |
| character | 10 |
| logical | 2 |
| numeric | 6 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| ITTER107 | 0 | 1 | 2 | 4 | 0 | 6 | 0 |
| Territorio | 0 | 1 | 4 | 11 | 0 | 6 | 0 |
| Sesso | 0 | 1 | 6 | 7 | 0 | 2 | 0 |
| ETA1 | 0 | 1 | 6 | 6 | 0 | 3 | 0 |
| Classe di età | 0 | 1 | 10 | 13 | 0 | 3 | 0 |
| Titolo di studio | 0 | 1 | 7 | 53 | 0 | 4 | 0 |
| CITTADINANZA | 0 | 1 | 3 | 3 | 0 | 2 | 0 |
| Cittadinanza | 0 | 1 | 10 | 11 | 0 | 2 | 0 |
| TIME | 0 | 1 | 4 | 7 | 0 | 25 | 0 |
| Seleziona periodo | 0 | 1 | 4 | 7 | 0 | 25 | 0 |
Variable type: logical
| skim_variable | n_missing | complete_rate | mean | count |
|---|---|---|---|---|
| Flag Codes | 1600 | 0 | NaN | : |
| Flags | 1600 | 0 | NaN | : |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| SEXISTAT1 | 0 | 1.0 | 1.50 | 0.50 | 1.00 | 1.00 | 1.50 | 2.00 | 2.00 | ▇▁▁▁▇ |
| TITOLO_STUDIO | 0 | 1.0 | 6.25 | 3.11 | 3.00 | 3.75 | 5.50 | 8.00 | 11.00 | ▇▁▃▁▃ |
| ACT_R_tasso di attività | 800 | 0.5 | 65.51 | 20.24 | 13.04 | 51.54 | 69.29 | 82.00 | 93.17 | ▂▂▃▅▇ |
| EMP_R_tasso di occupazione | 800 | 0.5 | 57.68 | 19.98 | 9.00 | 42.44 | 60.16 | 74.53 | 88.02 | ▂▃▆▇▇ |
| INAC_R_tasso di inattività | 800 | 0.5 | 34.49 | 20.24 | 6.83 | 18.00 | 30.71 | 48.46 | 86.96 | ▇▅▃▂▂ |
| UNEM_R_tasso di disoccupazione | 800 | 0.5 | 13.24 | 4.85 | 3.14 | 9.56 | 13.42 | 17.01 | 25.44 | ▃▆▇▆▁ |
## [1] "licenza di scuola elementare, nessun titolo di studio"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = -6.5697, df = 68.621, p-value = 8.101e-09
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.06620229 -0.03535930
## sample estimates:
## mean of x mean of y
## 0.7768056 0.8275864
##
## [1] "licenza di scuola media"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 0.61011, df = 75.813, p-value = 0.5436
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.008672599 0.016331890
## sample estimates:
## mean of x mean of y
## 0.8520506 0.8482210
##
## [1] "diploma"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 7.9855, df = 65.485, p-value = 2.954e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.03121369 0.05202940
## sample estimates:
## mean of x mean of y
## 0.9012849 0.8596634
##
## [1] "laurea e post-laurea"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 8.389, df = 46.604, p-value = 7.185e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.04012501 0.06544758
## sample estimates:
## mean of x mean of y
## 0.9427899 0.8900036
## [1] "licenza di scuola elementare, nessun titolo di studio"
##
## F test to compare two variances
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## F = 0.46017, num df = 39, denom df = 39, p-value = 0.01736
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2433839 0.8700532
## sample estimates:
## ratio of variances
## 0.4601706
##
## [1] "licenza di scuola media"
##
## F test to compare two variances
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## F = 0.70965, num df = 39, denom df = 39, p-value = 0.2884
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.3753319 1.3417432
## sample estimates:
## ratio of variances
## 0.7096471
##
## [1] "diploma"
##
## F test to compare two variances
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## F = 0.39163, num df = 39, denom df = 39, p-value = 0.004263
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2071323 0.7404604
## sample estimates:
## ratio of variances
## 0.391629
##
## [1] "laurea e post-laurea"
##
## F test to compare two variances
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## F = 0.098437, num df = 39, denom df = 39, p-value = 5.023e-11
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.05206348 0.18611746
## sample estimates:
## ratio of variances
## 0.0984374
## [1] "licenza di scuola elementare, nessun titolo di studio"
##
## Welch Two Sample t-test
##
## data: EmpActDiff[CITTADINANZA == "ITL"] and EmpActDiff[CITTADINANZA == "FRG"]
## t = -3.4596, df = 72.817, p-value = 0.0009079
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.884538 -1.044775
## sample estimates:
## mean of x mean of y
## 7.432248 9.896905
##
## [1] "licenza di scuola media"
##
## Welch Two Sample t-test
##
## data: EmpActDiff[CITTADINANZA == "ITL"] and EmpActDiff[CITTADINANZA == "FRG"]
## t = -7.4989, df = 77.182, p-value = 9.214e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.182085 -1.846776
## sample estimates:
## mean of x mean of y
## 7.173547 9.687977
##
## [1] "diploma"
##
## Welch Two Sample t-test
##
## data: EmpActDiff[CITTADINANZA == "ITL"] and EmpActDiff[CITTADINANZA == "FRG"]
## t = -15.115, df = 68.587, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.148859 -3.181277
## sample estimates:
## mean of x mean of y
## 6.873766 10.538834
##
## [1] "laurea e post-laurea"
##
## Welch Two Sample t-test
##
## data: EmpActDiff[CITTADINANZA == "ITL"] and EmpActDiff[CITTADINANZA == "FRG"]
## t = -8.9814, df = 48.772, p-value = 6.553e-12
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.395407 -2.787944
## sample estimates:
## mean of x mean of y
## 4.801687 8.393362
## [1] TRUE
## Classe di età N
## 1: 15-64 anni 320
## 2: 15-74 anni 320
## 3: 15 anni e più 320
## ITTER107 Territorio SEXISTAT1 Sesso ETA1 Classe di età TITOLO_STUDIO
## 1: IT Italia 1 maschi Y15-74 15-74 anni 3
## 2: IT Italia 1 maschi Y15-74 15-74 anni 3
## 3: IT Italia 1 maschi Y15-74 15-74 anni 3
## 4: IT Italia 1 maschi Y15-74 15-74 anni 3
## 5: IT Italia 1 maschi Y15-74 15-74 anni 3
## ---
## 796: IT Italia 2 femmine Y_GE15 15 anni e più 11
## 797: IT Italia 2 femmine Y_GE15 15 anni e più 11
## 798: IT Italia 2 femmine Y_GE15 15 anni e più 11
## 799: IT Italia 2 femmine Y_GE15 15 anni e più 11
## 800: IT Italia 2 femmine Y_GE15 15 anni e più 11
## Titolo di studio CITTADINANZA
## 1: licenza di scuola elementare, nessun titolo di studio FRG
## 2: licenza di scuola elementare, nessun titolo di studio FRG
## 3: licenza di scuola elementare, nessun titolo di studio FRG
## 4: licenza di scuola elementare, nessun titolo di studio FRG
## 5: licenza di scuola elementare, nessun titolo di studio FRG
## ---
## 796: laurea e post-laurea ITL
## 797: laurea e post-laurea ITL
## 798: laurea e post-laurea ITL
## 799: laurea e post-laurea ITL
## 800: laurea e post-laurea ITL
## Cittadinanza TIME Seleziona periodo Flag Codes Flags
## 1: straniero-a 2016 2016 NA NA
## 2: straniero-a 2016-Q1 T1-2016 NA NA
## 3: straniero-a 2016-Q2 T2-2016 NA NA
## 4: straniero-a 2016-Q3 T3-2016 NA NA
## 5: straniero-a 2016-Q4 T4-2016 NA NA
## ---
## 796: italiano-a 2020 2020 NA NA
## 797: italiano-a 2020-Q1 T1-2020 NA NA
## 798: italiano-a 2020-Q2 T2-2020 NA NA
## 799: italiano-a 2020-Q3 T3-2020 NA NA
## 800: italiano-a 2020-Q4 T4-2020 NA NA
## ACT_R_tasso di attività EMP_R_tasso di occupazione
## 1: NA NA
## 2: NA NA
## 3: NA NA
## 4: NA NA
## 5: NA NA
## ---
## 796: NA NA
## 797: NA NA
## 798: NA NA
## 799: NA NA
## 800: NA NA
## INAC_R_tasso di inattività UNEM_R_tasso di disoccupazione
## 1: NA 14.554684
## 2: NA 17.893708
## 3: NA 12.483509
## 4: NA 14.308103
## 5: NA 13.710790
## ---
## 796: NA 5.837994
## 797: NA 5.444754
## 798: NA 5.017824
## 799: NA 7.681419
## 800: NA 5.276037
boxplot
## ITTER107 Territorio SEXISTAT1 Sesso
## Length:6543 Length:6543 Min. :1.000 Length:6543
## Class :character Class :character 1st Qu.:1.000 Class :character
## Mode :character Mode :character Median :2.000 Mode :character
## Mean :4.306
## 3rd Qu.:9.000
## Max. :9.000
##
## ETA1 Classe di età TITOLO_STUDIO Titolo di studio
## Length:6543 Length:6543 Min. : 3.00 Length:6543
## Class :character Class :character 1st Qu.: 4.00 Class :character
## Mode :character Mode :character Median : 7.00 Mode :character
## Mean :36.87
## 3rd Qu.:99.00
## Max. :99.00
##
## CITTADINANZA Cittadinanza TIME Seleziona periodo
## Length:6543 Length:6543 Length:6543 Length:6543
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
##
## Value Flag Codes Flags
## Min. : 0.032 Min. :0 Length:6543
## 1st Qu.: 181.728 1st Qu.:0 Class :character
## Median : 684.207 Median :0 Mode :character
## Mean : 1565.837 Mean :0
## 3rd Qu.: 1839.790 3rd Qu.:0
## Max. :23553.667 Max. :0
## NA's :6529